Dieses „billige“ Open-Source-KI-Modell verbrennt tatsächlich Ihr Rechenbudget


Quelle: VentureBeat erstellt mit Midjourney
Möchten Sie intelligentere Einblicke in Ihren Posteingang erhalten? Melden Sie sich für unseren wöchentlichen Newsletter an, um nur das zu erhalten, was für Führungskräfte in den Bereichen KI, Daten und Sicherheit in Unternehmen wichtig ist. Jetzt abonnieren
Eine umfassende neue Studie hat ergeben, dass Open-Source-Modelle für künstliche Intelligenz bei der Ausführung identischer Aufgaben erheblich mehr Rechenressourcen verbrauchen als ihre Closed-Source-Konkurrenten. Dies könnte ihre Kostenvorteile untergraben und die Art und Weise verändern, wie Unternehmen KI-Bereitstellungsstrategien bewerten.
Die vom KI-Unternehmen Nous Research durchgeführte Studie ergab, dass Modelle mit offener Gewichtung 1,5- bis 4-mal mehr Token – die Grundeinheiten der KI-Berechnung – verwenden als geschlossene Modelle wie die von OpenAI und Anthropic . Bei einfachen Wissensfragen vergrößerte sich die Lücke dramatisch: Einige offene Modelle verwendeten bis zu 10-mal mehr Token.
Messung der Denkeffizienz in Argumentationsmodellen: Der fehlende Benchmark https://t.co/b1e1rJx6vZ
Wir haben die Token-Nutzung über verschiedene Reasoning-Modelle hinweg gemessen: Offene Modelle geben bei identischen Aufgaben 1,5- bis 4-mal mehr Token aus als geschlossene Modelle, allerdings mit enormer Varianz je nach Aufgabentyp (bis zu … pic.twitter.com/LY1083won8
„Offene Gewichtungsmodelle verwenden 1,5–4 Mal mehr Token als geschlossene (bis zu 10 Mal mehr bei einfachen Wissensfragen), was sie trotz niedrigerer Kosten pro Token manchmal pro Abfrage teurer macht“, schrieben die Forscher in ihrem am Mittwoch veröffentlichten Bericht.
Die Ergebnisse widerlegen die in der KI-Branche vorherrschende Annahme, dass Open-Source-Modelle gegenüber proprietären Alternativen klare wirtschaftliche Vorteile bieten. Zwar sind Open-Source-Modelle pro Token in der Regel günstiger, doch die Studie legt nahe, dass dieser Vorteil „leicht zunichte gemacht werden kann, wenn mehr Token zur Lösung eines Problems benötigt werden“.
Die Skalierung von KI stößt an ihre Grenzen
Leistungsbeschränkungen, steigende Token-Kosten und Verzögerungen bei der Inferenz verändern die Unternehmens-KI. Nehmen Sie an unserem exklusiven Salon teil und erfahren Sie, wie Top-Teams:
- Energie in einen strategischen Vorteil verwandeln
- Effiziente Inferenz für echte Durchsatzsteigerungen
- Erzielen Sie mit nachhaltigen KI-Systemen einen wettbewerbsfähigen ROI
Sichern Sie sich Ihren Platz, um die Nase vorn zu haben : https://bit.ly/4mwGngO
Die Studie untersuchte 19 verschiedene KI-Modelle in drei Aufgabenkategorien: Grundwissensfragen, mathematische Probleme und Logikrätsel. Das Team maß die „Token-Effizienz“ – also die Anzahl der Recheneinheiten, die die Modelle im Verhältnis zur Komplexität ihrer Lösungen verwenden – eine Kennzahl, die trotz ihrer erheblichen Kostenauswirkungen bisher kaum systematisch untersucht wurde.
„Die Token-Effizienz ist aus mehreren praktischen Gründen ein entscheidender Messwert“, stellten die Forscher fest. „Das Hosten offener Gewichtungsmodelle mag zwar günstiger sein, dieser Kostenvorteil könnte jedoch leicht zunichte gemacht werden, wenn mehr Token benötigt werden, um ein bestimmtes Problem zu lösen.“

Besonders ausgeprägt ist die Ineffizienz bei Large Reasoning Models (LRMs), die zur Lösung komplexer Probleme ausgedehnte „ Denkketten “ verwenden. Diese Modelle, die darauf ausgelegt sind, Probleme schrittweise zu durchdenken, können Tausende von Tokens verbrauchen, um über einfache Fragen nachzudenken, die eigentlich nur minimale Rechenleistung erfordern sollten.
Bei grundlegenden Wissensfragen wie „Was ist die Hauptstadt von Australien?“ stellte die Studie fest, dass die Denkmodelle „Hunderte von Tokens darauf verwenden, über einfache Wissensfragen nachzudenken“, die mit einem einzigen Wort beantwortet werden könnten.
Die Untersuchung offenbarte deutliche Unterschiede zwischen den Modellanbietern. Die Modelle von OpenAI, insbesondere die o4-mini- und die neu veröffentlichten Open-Source-Varianten gpt-oss , zeigten eine außergewöhnliche Token-Effizienz, insbesondere bei mathematischen Problemen. Die Studie ergab, dass sich OpenAI-Modelle durch eine extreme Token-Effizienz bei mathematischen Problemen auszeichnen und bis zu dreimal weniger Token verwenden als andere kommerzielle Modelle.
Unter den Open-Source-Optionen erwies sich Nvidias llama-3.3-nemotron-super-49b-v1 als „das Token-effizienteste Open-Weight-Modell über alle Domänen hinweg“, während neuere Modelle von Unternehmen wie Magistral als Ausreißer eine „außergewöhnlich hohe Token-Nutzung“ zeigten.
Die Effizienzlücke variierte je nach Aufgabentyp erheblich. Während offene Modelle für mathematische und logische Probleme etwa doppelt so viele Token verwendeten, stieg der Unterschied bei einfachen Wissensfragen, bei denen effizientes Denken unnötig sein sollte, sprunghaft an.

Die Ergebnisse haben unmittelbare Auswirkungen auf die Einführung von KI in Unternehmen, da die Rechenkosten mit der Nutzung schnell steigen können. Unternehmen, die KI-Modelle bewerten, konzentrieren sich oft auf Genauigkeitsbenchmarks und die Preisgestaltung pro Token, übersehen dabei aber möglicherweise den gesamten Rechenaufwand für reale Aufgaben.
„Die bessere Token-Effizienz von Modellen mit geschlossenem Gewicht gleicht oft die höheren API-Preise dieser Modelle aus“, stellten die Forscher bei der Analyse der gesamten Inferenzkosten fest.
Die Studie ergab auch, dass Anbieter von Closed-Source-Modellen aktiv auf Effizienzoptimierung setzen. „Geschlossene Gewichtungsmodelle wurden iterativ optimiert, um weniger Token zu verwenden und so die Inferenzkosten zu senken“, während Open-Source-Modelle „ihren Token-Verbrauch für neuere Versionen erhöht haben, was möglicherweise auf eine höhere Priorität für eine bessere Argumentationsleistung hindeutet.“

Das Forschungsteam stand vor besonderen Herausforderungen bei der Messung der Effizienz verschiedener Modellarchitekturen. Viele Closed-Source-Modelle legen ihre grundlegenden Denkprozesse nicht offen, sondern bieten komprimierte Zusammenfassungen ihrer internen Berechnungen, um zu verhindern, dass Wettbewerber ihre Techniken kopieren.
Um dieses Problem zu lösen, verwendeten die Forscher sogenannte Completion Tokens – die Gesamtzahl der Recheneinheiten, die für jede Abfrage berechnet werden – als Proxy für den Denkaufwand. Sie fanden heraus, dass „die meisten aktuellen Closed-Source-Modelle ihre Rohdaten nicht weitergeben“ und stattdessen „kleinere Sprachmodelle verwenden, um den Gedankengang in Zusammenfassungen oder komprimierte Darstellungen zu transkribieren“.
Zur Methodik der Studie gehörte das Testen mit modifizierten Versionen bekannter Probleme, um den Einfluss auswendig gelernter Lösungen zu minimieren, wie etwa das Ändern von Variablen in mathematischen Wettbewerbsproblemen aus der American Invitational Mathematics Examination (AIME) .

Die Forscher schlagen vor, dass die Token-Effizienz neben der Genauigkeit ein primäres Optimierungsziel für die zukünftige Modellentwicklung sein sollte. „Ein dichterer CoT ermöglicht zudem eine effizientere Kontextnutzung und kann der Kontextverschlechterung bei anspruchsvollen Denkaufgaben entgegenwirken“, schreiben sie .
Die Veröffentlichung der Open-Source -gpt-oss-Modelle von OpenAI, die mit „frei zugänglichem CoT“ modernste Effizienz demonstrieren, könnte als Referenzpunkt für die Optimierung anderer Open-Source-Modelle dienen.
Der vollständige Forschungsdatensatz und der Evaluierungscode sind auf GitHub verfügbar , sodass andere Forscher die Ergebnisse validieren und erweitern können. Während die KI-Branche auf immer leistungsfähigere Denkfähigkeiten hinarbeitet, legt diese Studie nahe, dass der eigentliche Wettbewerb möglicherweise nicht darin besteht, wer die intelligenteste KI bauen kann, sondern wer die effizienteste.
Denn in einer Welt, in der jeder Token zählt, könnten die verschwenderischsten Modelle durch ihre Preise vom Markt verdrängt werden, ganz gleich, wie gut sie denken können.
Wenn Sie Ihren Chef beeindrucken möchten, sind Sie bei VB Daily genau richtig. Wir geben Ihnen Insiderinformationen darüber, was Unternehmen mit generativer KI machen – von regulatorischen Veränderungen bis hin zu praktischen Implementierungen. So können Sie Ihre Erkenntnisse teilen und so den ROI maximieren.
Lesen Sie unsere Datenschutzrichtlinie
Vielen Dank für Ihr Abonnement. Weitere VB-Newsletter finden Sie hier .
Ein Fehler ist aufgetreten.

venturebeat